0%

(NIPS 2012) Imagenet classification with deep convolutional neural networks

Keyword [AlexNet]

Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.

该篇论文提出一种CNN结构 (AlexNet),在ImageNet数据集ILSVRC-2010 (Table 1) 和ILSVRC-2012上进行实验验证其性能:top-1 and top-5 error (Figure 4, Left).



论文中AlexNet在双GPU上进行训练,使用

  • ReLU替代tanh activation function,提高收敛速度。
  • Local Response NormalizationOverlapping Pooling提高性能。

以及通过

  • Data Augmentation
  • Dropout Layer

Reduce overfitting.

1. Dataset


  • ImageNet数据集包含超过15 million labeled 高分辨率图像,图像可分为22,000 categories.
  • Starting in 2010, as part of the Pascal Visual Object Challenge, an annual competition called the ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) has been held.
  • ILSVRC比赛使用ImageNet数据集中的一部分,大约包含1000个图像类别,每个类别大约1000张图片。数据集分为training、validation、testing.
  • 评测指标分为top-1和top-5 error。之所以使用top-5 error指标是因为,有些图像可以同时分为好几个类别 (数据集的labele可能存在一定误差)。Top-5表示只要预测的类别在该图像前5个类别labele中,就算预测正确。
  • 对数据集图像进行256$\times$256尺寸的下采样处理。由于图像尺寸大小不一,论文首先按照比例rescale图像,将图像shorter sied rescale到256大小,central crop 256$\times$256 patch. 此外,还对图像像素值进行去中心化操作(减均值)

2. ReLU


用ReLU (non-saturating nonlinearities)



替代tanh(saturating nonlinearities)



能提高收敛速度(Figure 1)



3. Local Response Normalization


  • 对各空间点的卷积值在channel维度上作归一化(现在一般使用GoogleNet Version 2提出的Batch Normalization).


  • Response normalization reduces our top-1 and top-5 error rates by 1.4% and 1.2%, respectively.

4. Overlapping Pooling


  • 即stride小于kernel size.
  • This scheme(stride=2, kernel size=3 vs stride=2, kernel size=2) reduces the top-1 and top-5 error rates by 0.4% and 0.3%.

5. 多GPU训练


  • GTX 580 3GB memory. 由于单块GPU显存太小,因此使用两块GPU训练。如今GTX Titan已到12G.

6. AlexNet


  • 8 layers=5 Conv+3 FC+Softmax (Figure 2).

  • has 60 million parameters and 650,000 neurons.



7. Data Augmentation


  • (方法1) 先对256$\times$256图像进行horizontal reflection,再random crop 224$\times$244 patches,论文将数据集扩大2048倍。

  • (方法2) Altering the intensities of the RGB channels. 对RGB矩阵进行PCA得到特征值和特征向量(图1),对特征值乘以一个系数α,α服从mean=0, std=0.1高斯分布。



8. Dropout Layer


  • Combining the predictions of many different models is a very successful way to reduce test errors, but it appears to be too expensive for big neural networks that already take several days to train.
  • 因此,利用dropout的随机性来改变模型training阶段的内部结构
  • 论文使用drop rate 0.5, 即50%几率将training阶段的输出设置为0,不参与本次forward和backward过程。
  • Dropout roughly doubles the number of iterations required to converge.
  • testing阶段,将输出乘0.5 (如今的dropout方法,大多数不乘drop rate).


9. 基于vector进行相似性检索


  • 基于倒数第二层FC输出的4096维Vector,计算欧氏距离进行相似图片检索 (Figure 4, Right).
  • pixel leve上基于L2进行图片相似检索显然不可行,但是在high-level可用L2进行检索
  • 此外,4096维vector的欧氏距离计算量太大,使用auto-encoder对vector进一步压缩后再进行相似度检索,能得到更好的效果。